Developing a computer use model
https://scrapbox.io/files/674e644890014ab43b302bf4.png
https://www.anthropic.com/news/developing-computer-use
AnthropicのComputer Use機能の解説記事。
なぜComputer Useが重要なのか?
現代の仕事の大部分は、コンピューターを介して行われる。
もし、AIが人間と同じようにコンピューターと直接対話できれば、様々なタスクを実行できるため。
どうやって実現したか?
Claudeに、以下の能力をトレーニングさせた。
画像を見て解釈する能力(マルチモーダル)
画面を見て、いつ、どのように実行するか、推論する能力(ツールの使用)
これにより
Claudeは、ユーザーに見えるもののスクリーンショットを見て、
正しい場所をクリックするために、カーソルを垂直/水平に何ピクセル動かすか?を数える
現在、Claudeは画面をみてそれに応じて行動するモデルとしては、最先端のスコアを達成した。
OSWorldでは、14.9%であり、No2の7.7%をはるかに凌駕する
しかし、人間レベルのスキルは、70-75%であり、遠く及ばない
課題
遅く、エラーが発生しやすい
まだまだ人間レベルではない
安全面
現状ASL-2である
将来的に、モデルが壊滅的リスクを伴うため、ASL-3,4 の保護手段が必要になった時に、このリスクを悪化させる可能性がある
プロンプトインジェクションなどに晒される
Related:
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use